IAPO: Optimización de Políticas con Atribución de Entradas para Agentes Multimodales IAPO: un algoritmo de RL que mejora la capacidad de llamar a herramientas en agentes multimodales pequeños, logrando un 3% más de precisión en VQA. 2026-06-11 · 2 min